43 research outputs found

    Techniques for image classification, object detection and object segmentation

    Get PDF
    In this paper we document the techniques which we used to participate in the PASCAL NoE VOC Challenge 2007 image analysis performance evaluation campaign. We took part in three of the image analysis competitions: image classification, object detection and object segmentation. In the classification task of the evaluation our method produced comparatively good performance, the 4th best of 19 submissions. In contrast, our detection results were quite modest. Our method's segmentation accuracy was the best of all submissions. Our approach for the classification task is based on fused classifications by numerous global image features, including histograms of local features. The object detection combines similar classification of automatically extracted image segments and the previously obtained scene type classifications. The object segmentations are obtained in a straightforward fashion from the detection results

    Evaluation of pointer click relevance feedback in PicSOM : deliverable D1.2 of FP7 project nº 216529 PinView

    Get PDF
    This report presents the results of a series of experiments where knowledge of the most relevant part of images is given as additional information to a content-based image retrieval system. The most relevant parts have been identified by search-task-dependent pointer clicks on the images. As such they provide a rudimentary form of explicit enriched relevance feedback and to some extent mimic genuine implicit eye movement measurements which are essential ingredients of the PinView project

    Concept-based video search with the PicSOM multimedia retrieval system

    Get PDF

    Video Summarization with SOMs

    Get PDF
    Video summarization is a process where a long video file is converted to a considerably shorter form. The video summary can then be used to facilitate efficient searching and browsing of video files in large video collections. The aim of successful automatic summarization is to preserve as much as possible from the essential content of each video. What is essential is of course subjective and also dependent on the use of the videos and the overall content of the collection. In this paper we present an overview of the SOM-based methodology we have used for video summarization, which analyzes the temporal trajectories of the best-matching units of frame-wise feature vectors. It has been developed as a part of PicSOM, our content-based multimedia information retrieval and analysis framework. The video material we have used in our experiments comes from NIST's annual TRECVID evaluation for content-based video retrieval systems

    Video Summarization with SOMs

    Get PDF
    Video summarization is a process where a long video file is converted to a considerably shorter form. The video summary can then be used to facilitate efficient searching and browsing of video files in large video collections. The aim of successful automatic summarization is to preserve as much as possible from the essential content of each video. What is essential is of course subjective and also dependent on the use of the videos and the overall content of the collection. In this paper we present an overview of the SOM-based methodology we have used for video summarization, which analyzes the temporal trajectories of the best-matching units of frame-wise feature vectors. It has been developed as a part of PicSOM, our content-based multimedia information retrieval and analysis framework. The video material we have used in our experiments comes from NIST's annual TRECVID evaluation for content-based video retrieval systems

    Visuaalisten kategorioiden tunnistaminen: kokeellinen näkökulma

    No full text
    Nowadays huge volumes of digital visual data are constantly being produced and archived. Automatically distilling useful information from such information masses requires one to somehow answer the grand long-standing question of computer vision: how to make computers understand images? In this thesis the visual content analysis problem is looked at as a category detection problem. In the category detection formulation, the general image content understanding task is partitioned into a number of small binary decision tasks. In each of the sub-tasks, one decides whether an image belongs to some pre-defined category. A category could be defined, for example, to consist of images taken indoors. By defining an appropriate set of categories, the visual content of an image can be described on a desired level of granularity by determining the image's membership in each one of the categories. This thesis discusses a framework for visual category detection that consists of three major components: feature extraction, feature-wise detection and fusion of the detection results. The point of view in the discussion is empirical: the framework is validated by the good levels of performance systems implementing it have demonstrated in various benchmark tasks of visual analysis. A body of experiments is described that compare various technological alternatives for implementing the three major components of the framework. In addition to comparing implementation techniques, the experiments demonstrate that the discussed generic category detection architecture is very versatile: a set of diverse visual analysis problems can be addressed using the same visual category detection system as a backbone component by equipping the system with a task-specific front-end. From the experiments and discussion in the thesis, one can conclude that the category detection formulation is a useful way of approaching the general image content understanding problem. In category detection, performances reaching the state-of-the-art can be realised using the presented fusion-based system architecture and implementation technologies of the system components.Nykyaika tuottaa jatkuvasti valtavia määriä visuaalista digitaalista aineistoa. Jotta näistä suurista tietoaineistoista voitaisiin automaattisesti löytää käyttökelpoista informaatiota, olisi löydettävä jonkinlainen vastaus tietokonenäön pitkäaikaiseen peruskysymykseen: kuinka saada tietokoneet ymmärtämään kuvien sisältöä? Tässä väitöskirjassa visuaalisen sisällön luonnehtimista tarkastellaan kategorioiden tunnistamisen näkökulmasta. Yleinen kuvan sisällön luonnehtimistehtävä pilkotaan lukuisiksi pieniksi kyllä-ei -päätöstehtäviksi. Kussakin yksittäisessä päätöstehtävässä vastataan kysymykseen, kuuluuko tarkasteltava kuva johonkin ennalta määrättyyn kategoriaan. Voitaisiin esimerkiksi määritellä, että sisätiloissa otetut kuvat muodostavat yhden kategorian. Kuvien sisältöä voidaan kuvailla halutulla yksityiskohtaisuustasolla määrittelemällä sopiva joukko kategorioita ja tunnistamalla kunkin kategorian kohdalla, mitkä kuvat siihen kuuluvat. Väitöskirjassa käsitellään mallia, jossa kategoriantunnistusjärjestelmä koostuu kolmesta pääosasta: piirreirrotuksesta, piirrekohtaisesta tunnistuksesta sekä näiden tunnistustulosten fuusiosta. Tekstin näkökulma on kokeellinen: tämän järjestelmäarkkitehtuurin toimivuus perustellaan hyvillä suorituskykyarvoilla, joita siihen perustuvat järjestelmät ovat saavuttaneet erilaisissa visuaalisen analyysin suorituskykyä mittaavissa tehtävissä. Väitöskirjassa kuvataan lukuisia kokeita, joissa arvioidaan eri tekniikoita järjestelmän kolmen pääkomponentin toteuttamiseksi. Toteutustekniikoiden vertailemisen lisäksi kokeet myös osoittavat, että esitetty yleiskäyttöinen kategoriantunnistusmalli on hyvin joustava: joukko erilaisia visuaalisia analyysitehtäviä on voitu ratkaista järjestelmällä, jonka ydinosan kaikissa tapauksissa muodostaa sama kategoriantunnistinkomponentti. Eri tehtäviä varten ydin on ympäröity tehtäväkohtaisilla sovitinosilla. Väitöskirjassa esitettyjen kokeiden ja analyysien perusteella voidaan päätellä, että kategorioiden tunnistaminen on käyttökelpoinen tapa lähestyä yleistä kuvien sisällön tulkitsemistehtävää. Voidaan myös todeta, että esitetyllä piirrefuusiota hyödyntävällä järjestelmäarkkitehtuurilla ja esitetyillä järjestelmän osien toteutustekniikoilla saavutetaan tämänhetkinen huipputaso kategoriantunnistuksessa
    corecore